Model distillation has been a popular method for producing interpretable machine learning. It uses an interpretable "student" model to mimic the predictions made by the black box "teacher" model. However, when the student model is sensitive to the variability of the data sets used for training, the corresponded interpretation is not reliable. Existing strategies stabilize model distillation by checking whether a large enough corpus of pseudo-data is generated to reliably reproduce student models, but methods to do so have so far been developed for a specific student model. In this paper, we develop a generic approach for stable model distillation based on central limit theorem for the average loss. We start with a collection of candidate student models and search for candidates that reasonably agree with the teacher. Then we construct a multiple testing framework to select a corpus size such that the consistent student model would be selected under different pseudo sample. We demonstrate the application of our proposed approach on three commonly used intelligible models: decision trees, falling rule lists and symbolic regression. Finally, we conduct simulation experiments on Mammographic Mass and Breast Cancer datasets and illustrate the testing procedure throughout a theoretical analysis with Markov process.
translated by 谷歌翻译
无穷小夹刀是一种估计参数模型方差的通用方法,最近也用于某些集合方法。在本文中,我们扩展了无穷小折刀,以估计任意两种模型之间的协方差。这可用于量化模型组合的不确定性,或构建测试统计信息,以比较使用相同训练数据集拟合的模型的不同模型或组合。本文中的具体示例使用了随机森林和M估计剂等模型的增强组合。我们还研究了其在XGBOOST模型的神经网络和集合上的应用。我们通过广泛的模拟及其在北京住房数据中的应用来说明差异估计的疗效,并证明了无穷小折刀协方差估算的理论一致性。
translated by 谷歌翻译
Multilingual models are often particularly dependent on scaling to generalize to a growing number of languages. Compression techniques are widely relied upon to reconcile the growth in model size with real world resource constraints, but compression can have a disparate effect on model performance for low-resource languages. It is thus crucial to understand the trade-offs between scale, multilingualism, and compression. In this work, we propose an experimental framework to characterize the impact of sparsifying multilingual pre-trained language models during fine-tuning. Applying this framework to mBERT named entity recognition models across 40 languages, we find that compression confers several intriguing and previously unknown generalization properties. In contrast to prior findings, we find that compression may improve model robustness over dense models. We additionally observe that under certain sparsification regimes compression may aid, rather than disproportionately impact the performance of low-resource languages.
translated by 谷歌翻译
社交媒体的日益普及引起了人们对儿童在线安全的关注。未成年人与具有掠夺性意图的成年人之间的互动是一个特别严重的关注点。在线性修饰的研究通常依靠领域专家来手动注释对话,从而限制了规模和范围。在这项工作中,我们测试了良好的方法如何检测对话行为并取代专家的人类注释。在在线修饰的心理理论中,我们将$ 6772的$ 6772 $聊天消息标记为儿童性犯罪者以十一种掠夺性行为之一发送的聊天消息。我们训练字袋和自然语言推断模型来对每种行为进行分类,并表明,最佳性能模型以一致但不与人类注释的方式分类的方式对行为进行了分类。
translated by 谷歌翻译
现代机器学习研究依赖于相对较少的精心策划数据集。即使在这些数据集中,通常在“不整合”或原始数据中,从业人员也面临着重要的数据质量和多样性问题,这些问题可能会非常强烈地解决。应对这些挑战的现有方法往往会对特定问题做出强烈的假设,并且通常需要先验知识或元数据,例如域标签。我们的工作与这些方法是正交的:相反,我们专注于为元数据考古学提供一个统一和有效的框架 - 在数据集中发现和推断示例的元数据。我们使用简单的转换策划了可能存在的数据集(例如,错误标记,非典型或过度分布示例)中可能存在的数据子集,并利用这些探针套件之间的学习动力学差异来推断感兴趣的元数据。我们的方法与跨不同任务的更复杂的缓解方法相提并论:识别和纠正标签错误的示例,对少数民族样本进行分类,优先考虑与培训相关的点并启用相关示例的可扩展人类审核。
translated by 谷歌翻译
从有限的资源中获得最大收益可以进步自然语言处理(NLP)研究和实践,同时保守资源。这些资源可能是数据,时间,存储或能源。NLP的最新工作从缩放率产生了有趣的结果。但是,仅使用比例来改善结果意味着资源消耗也会扩展。这种关系激发了对有效方法的研究,这些方法需要更少的资源才能获得相似的结果。这项调查涉及NLP效率的方法和发现,旨在指导该领域的新研究人员并激发新方法的发展。
translated by 谷歌翻译
我们研究了不同修剪技术对具有对比损失功能的深神经网络所学的表示的影响。我们的工作发现,相对于经过传统的跨透明损失训练的模型,在高稀疏度水平上,对比度学习的示例数量更高。为了理解这种明显的差异,我们使用派(Hooker等,2019),Q-Score(Kalibhat等,2022)和PD-Score(Baldock等,2021)等指标(Hooker等,2019),测量修剪对学习的表示质量的影响。我们的分析表明,修剪方法实施的时间表很重要。我们发现,当在训练阶段早期引入修剪时,稀疏性对学习表示的质量的负面影响最高。
translated by 谷歌翻译
事实证明,知识蒸馏是使用教师模型的预测来改善学生模型的一项有效技术。但是,最近的工作表明,在数据中的亚组中,平均效率的提高并不统一,尤其是在稀有亚组和类别上的准确性通常可能以准确性为代价。为了在可能遵循长尾分配的课程中保持强劲的表现,我们开发了蒸馏技术,这些技术是为了改善学生最差的级别表现而定制的。具体来说,我们为教师和学生介绍了不同组合的强大优化目标,并进一步允许在整体准确性和强大的最差目标之间进行任何权衡训练。我们从经验上表明,与其他基线方法相比,我们强大的蒸馏技术不仅可以实现更好的最差级别性能,而且还可以改善整体性能和最差的级别性能之间的权衡。从理论上讲,我们提供有关在目标培训健壮学生时使一名好老师的见解。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
我们建议社会福利优化作为在AI系统中正式化公平性的一般范式。我们认为,优化模型允许将广泛的公平标准作为社会福利功能,同时使AI充分利用高级的解决方案技术。与其试图减少选定群体之间的偏见,不如将公平性纳入社会福利职能来实现所有群体。这也允许对所涉个人的福利进行更全面的会计。我们展示了如何使用内部处理或后处理方法将社会福利优化与基于规则的AI和机器学习集成在一起。我们提出了案例研究的经验结果,作为对这些整合策略的有效性和潜力的初步研究。
translated by 谷歌翻译